•  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

LB/ADC BS 작업(r23 Blame)

r23
r1

(새 문서)
1[목차]
2== 개요 ==
3LSM/ADC 서버 BS 작업 시 참고 할만한 체크리스트를 작성 하였다.
4
r15
5== 작업 중 장애 트러블 슈팅 ==
r18
6서버 부팅이 정상적으로 안되는 내용은 [[서버 행업 시 트러블 슈팅|행업 트러블 슈팅]] 관련 문서 확인
r19
7
r20
8=== LSM/ADC 관련 작업 중 발생했던 장애 ===
9'''1. 이중화 기동 및 프로세스, VIP 충돌 현상'''
10 * '''현상''': ADC 서버가 재부팅 된 후 Active 권한을 스스로 가져가 버리거나, 기존 LSM 서버도 Active 상태인 경우다. 이로 인해 두 서버에서 동일한 [[VIP]](Virtual IP)와 프로세스가 동시에 구동되어 IP 충돌 및 서비스 장애가 발생한다.
11 * '''해결''':
12 1. '''프로세스 정리''': 작업 전 백업해 둔 프로세스 정보 리스트를 활용해 ADC가 Active 상태일 떄 가지고 있어야 하는 프로세스를 할당한다.
13 2. '''VIP 해제''': ADC 서버가 VIP를 정상 점유 중인지 확인 후, LSM 서버에 올라와 있는 중복 VIP를 인터페이스 다운 명령어[* 예: ifconfig bond0:1 down 또는 환경에 맞는 명령어를 사용한다.]를 통해 비활성화하여 '''Active-Standby''' 상태로 정상화한다.
r15
14
r23
15'''2. LSM / ADC 절체가 되지 않는 이슈'''
16 * '''현상''': LSM 및 ADC 대개체 후 절체가 정상적으로 이루어 지지 않던 현상이 있다.
17 * '''해결''':
18 1. '''프로세스 확인''': ServiceMonitor 프로세스가 실행중인지 확인[* # ps ax | grep castis ]
19 2. '''방화벽이 활성화 되어 있는지 확인''': 방화벽이 설정되어 있으면 절체가 차단 될 수 있어 확인 후[* # iptables -L [br] # firewall-cmd --state ] 켜져있다면 비활성화 시켜준다.[* # service iptables stop, systemctl stop iptables [br] # service firewalld stop, systemctl stop firewalld ]
20 3. '''네트워크 인터페이스 상태 점검''' : LSM/ADC 서버의 인터페이스[* bond0:1, bond1:1, bond1:2]가 정상적으로 UP 되어 있는지 확인 [* ifconfig bond0:1 (각 인터페이스 명 대입)] 만약 DOWN 상태일 경우, 아래 명령어로 활성화 # ifconfig <인터페이스명> up
r15
21== LSM/ADC 서비스 실행 프로세스 및 포트 정보 ==
22||<tablealign=left><tablewidth=400><tablebordercolor=#cccccc><-2> '''프로세스 및 포트 정보''' ||
23||<width=70%> '''프로세스 명''' ||<width=30%> '''포트 번호''' ||
r22
24|| [[LFMServer|LFMServer]] || 8549 ||
25|| [[LFMSinkModule|LFMSinkModule]] || 8550 ||
r15
26|| [[LoadBalancer2|LoadBalancer2]] || 50890 ||
r22
27|| [[ADSController|ADSController]] || 904 ||
28|| [[ADSClient|ADSClient]] || 911 ||
r21
29|| [[L_ADS|L_ADS]] || 30000 ||
r11
30|| L_GSDM || 18079 ||
31|| L_NRM || 18081 ||
r6
32|| file_requester || 18084 ||
33|| cache_manager || 8081 ||
r14
34|| NetIOServer3 || 32128 ||
r6
35|| CiMonitoringAgent || 30002 ||
36|| [[CiGLBServer|CiGLBServer]] || 확인 후 추가 ||
37
38
39== LSM/ADC BS 작업 체크리스트 ==
40||<tablewidth=100%> 순서 / 체크 항목 || 명령어 || 기준 값 || 결과 ||
41||<|2> 사전 || 서버 공통 체크리스트 점검 || [[서버 공통 체크리스트|서버 공통 체크 리스트]] || 부팅 전 상태 확인을 위한 점검 || ||
42|| [[GTV 서버 점검 스크립트|서버 점검 스크립트]] || ./Server_Check.sh 7 LSM or ADC || 모든 항목이 이상없음 상태입니다. 문구 출력 시 정상 || ||
43||<|12> 부팅 후 || 시스템 로그 확인 || tail -F /var/log/messages[br]egrep -i "error|fail" /var/log/messages || Error/Fail 로그 없을 시 정상 || ||
r14
44|| 서버 공통 체크리스트 점검 || [[서버 공통 체크리스트|서버 공통 체크 리스트]] || 부팅 후 상태 확인을 위한 점검 || ||
r6
45|| 백업 환경 비교 || diff [사전 백업 파일] [현재 상태] || 부팅 전 백업한 파일과 상태가 동일할 시 정상 || ||
46|| LoadBalancer 로그 확인 || tail -F /var/log/castis/lb_log/EventLog_*.log[br]egrep -i "error|fail" /var/log/castis/lb_log/* || "Selected for Client StreamID" 로그가 계속 출력 될 경우 정상 || ||
r12
47|| CiGLBServer 로그 확인 || egrep -i "error|fail" /var/log/castis/glb_log/* || "Successfully New Setup Session" 로그가 지속적으로 출력 될 경우 정상 || ||
48|| LFMServer 로그 확인 || tail -F /var/log/castis/lfm_log/* || 배포 성공(6)이 계속 출력 될 경우 정상 [*1 6: 배포 성공, 5: 부분 성공, 4: 배포 실패 ] || ||
49|| ADS 로그 확인 || tail -F /var/log/castis/adc_log/* || “[MovieFile::SyncByteCheck] PASSED” 확인 [br] PackLoss가 50% 미만인지 확인 || ||
50|| L_GSDM 로그 확인 || tail -F /var/log/castis/gsdm/*_gsdm.log || "success to alloc" 로그가 지속적으로 출력 시 정상 || ||
51|| 동적배포 실패 건수 || egrep -i "error|fail" /var/log/castis/gsdm/* || 3개 이상 시 중앙서버 통신 상태 점검 || ||
52|| 큐톤 파일 요청 개수 || cat [GLB_LOG] | grep 'p=c1' | grep RequestFullFileName -c || 요청수와 응답수를 비교하여 검증 || ||
53|| [[GTV 서버 점검 스크립트|서버 점검 스크립트]] || ./Server_Check.sh 7 LSM or ADC || 모든 항목이 이상없음 상태입니다. 문구 출력 시 정상 || ||
54|| 세션 할당 확인 || lbstat || 대역폭/세션 정상 수치 및 증가 확인 [*예시 Ex) [br] vod40199 Running 2.1139G / 15G [14%] 276 / 3750 [7%] 27.6387T / 30.7235T [89%] [br] vod40200 Running 2.17629G / 15G [14%] 299 / 3750 [7%] 27.6381T / 30.7235T [89%] ] || ||